Représentation temporelle des mots : application au clustering de micro-blogs

نویسندگان

  • Zeljko Kraljevic
  • Nicolas Baskiotis
  • Benjamin Piwowarski
  • Patrick Gallinari
چکیده

RÉSUMÉ. Les modèles distribués de mots sont un outil précieux pour la classification, le clustering, et plus généralement la représentation des documents. Pour des collections dynamiques, il est nécessaire de prendre en compte l’évolution temporelle de ces représentations. Dans cet article, nous présentons un modèle qui représente les mots sous la forme de trajectoires dans un espace de représentation, trajectoires qui sont déterminées par les groupes auxquels les mots appartiennent. Des expériences préliminaires en clustering sur des micro-blogs montrent l’intérêt de ce type de modèle.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Semantic Clustering using Bag-of-Bag-of-Features

RÉSUMÉ. Le calcul de distances entre représentations textuelles est au cœur de nombreuses applications du Traitement Automatique des Langues. Les approches standard initiallement développées pour la recherche d’information sont alors le plus souvent utilisées. Dans la plupart des cas, il est donc adopté une description sac-de-mots (ou sac-d’attributs) avec des pondérations de type TF-IDF ou des...

متن کامل

Modélisation de Ressources Termino-Ontologiques en OWL

Résumé : Dans le cadre de recherches menées sur l’indexation sémantique, nous avons été conduits à nous interroger sur l’efficacité générale des modèles actuels de représentation des terminologies au sein des ontologies. Après avoir évoqué leurs limites actuelles, nous proposons un nouveau modèle pour manipuler une ressource termino-ontologique en OWL et nous en décrivons son implémentation pro...

متن کامل

La prise en compte de la dimension temporelle dans la classification de données

Résumé. Dans un contexte d’ingénierie de la connaissance, l’analyse des données relationnelles évolutives est une question centrale. La représentation de ce type de données sous forme de graphe optimisé en facilite l'analyse et l'interprétation par l’utilisateur non expert. Cependant, ces graphes peuvent rapidement devenir trop complexes pour être étudiés dans leur globalité, il faut alors les ...

متن کامل

New Word Vector Representation for Semantic Clustering

RÉSUMÉ. L’idée que nous défendons dans cet article est qu’il est possible d’obtenir des concepts sémantiques significatifs par des méthodes de classification automatique. Pour ce faire, nous commençons par proposer des mesures permettant de quantifier les relations sémantiques entre mots. Ensuite, nous utilisons les méthodes de classification non supervisée pour construire les concepts d’une ma...

متن کامل

Stratégies d'automédiation: de l'expression de soi au jeu des intersubjectivités : Etude de la représentation de l'usager dans Livejournal et Touchgraph

RÉSUMÉ. Acteur de sa présentation et de sa représentation en ligne, le diariste dessine les contours de son existence diégétique en élaborant une stratégie d’automédiation. La représentation de soi est une création personnelle déterminée par l’interface et les fonctionnalités du logiciel. Son usage manifeste des stratégies disparates, de l’épanchement solipsiste à la collection de tests et plai...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016